DAY20-爬取HTML容器標籤 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 20

0

AI & Data

30天網路爬蟲學習系列第 20 篇

DAY20-爬取HTML容器標籤

15th鐵人賽

2023-10-05 23:50:14

503 瀏覽

分享至

由於<div>標籤是用來群組其他元素來建立紀錄和欄位，所以爬取群組的<div>標籤就如同是在爬取多筆紀錄，今天我們就來使用Web Scraper爬取容器標籤吧~
本此練習網址為：https://fchart.github.io/test/ex5_01.html

瀏覽網頁後，開啟開發人員工具可以看到三層巢狀<div>標籤，<div id=”content”>標籤是最上層，在他之下有三個<div class="article lightbiue">和兩個<div class=”article”>子標籤，再下一層也是<div>標籤，最後才是<h2>標籤和<p>標籤。

在Web Scraper新增一個名為div_tag的網站地圖，準備爬取三個<div class=”artcicle lightbule”>標籤的客戶端網頁技術的<h2>標籤。

在_root根節點下新增名為items的節點，在Type欄選擇Element類型，選擇三個<div>標籤，可以取得CSS選擇器div.lightbule，由於有多個，所以要勾選Multipe，點選Save selector儲存。

切換到_root/items路徑下，新增名為title的Text類型選擇器，選擇文字內容是HTML的<h2>標籤，可以取得CSS選擇器h2，點選Save selector儲存。

再新增一個名為note的Text類型選擇器，CSS選擇器是p。

新增完成後，就完成了網站地圖的建立。

接下來使用Web Scraper執行網站地圖來爬取巢狀<div>標籤的資料，就可以看到擷取到的表格資料。

以Excel開啟匯成的CSV檔案：

這樣子就完成了!!

今天的分享就先到這邊，我們明天見~

參考書籍資料：文科生也可以輕鬆學習網路爬蟲
資料爬取練習來源同書籍

DAY19-認識HTML容器標籤

DAY21-認識網站巡覽

系列文

30天網路爬蟲學習共 30 篇

目錄

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19859 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙